JSAI2026 Jagle: 視覚言語モデルのための大規模日本語マルチモーダル事後学習データセットの構築

テーマ

日本語の視覚言語モデルを強化するための、大規模マルチモーダル事後学習データセット構築

画像と言語を組み合わせた日本語タスクに強いVLMを作るための基盤整備

背景課題

既存のVLM学習データは英語中心

日本語の大規模・多カテゴリな公開データセットは不足している

既存の日本語VLM用データは、自然画像VQAに偏りがある

文書・図表・OCR系の実用タスクが弱い

提案

Jagleという日本語マルチモーダル事後学習データセットを構築

約940万事例

6カテゴリ、18サブセットで構成

データ構築の方針

既存データセットを活用しつつ、不足領域は独自に作成

Wikipedia、Web画像、PDF、行政文書、図表画像などを利用

気になる daiiz.icon

いい感じの図表画像のデータセットがあれば知りたい